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浅 谈 全 媒体 内 容 库 的 内 容 挖掘 与 可 视 化 


摘 要 : 随 着 全 媒体 内 容 库 的 建设 ， 内 容 库 中 的 资源 数量 呈 指 数 增长 ， 海 量 的 信息 出 现 使 得 用 户 感觉 无 所 适 从 ， 很 难 从 中 寻 
找到 真正 需要 的 内 容 资 源 ， 出 现 了 互联 网 行业 所 谓 的 “信息 过 载 ”现象 。 为 了 能 够 使 用 户 更 容易 地 利用 和 理解 内 容 库 中 的 多 
种 、 大 量 的 媒体 资源 ， 更 好 地 推进 全 媒体 内 容 服务 的 特色 化 和 个 性 化 服务 ， 本 文 分 析 了 现 阶 段 全 媒体 内 容 库 在 内 容 管 理 、 内 
容 服务 ， 挖 掘 内 容 价 值 上 出 现 的 新 需求 ， 描 述 了 各 种 媒体 可 用 的 分 析 挖 气 技 术 ， 最 终 通过 信息 可 视 化 技术 将 全 媒体 内 容 库 中 
的 内 容 直 观 地 展示 在 用 户 面前 ， 使 用 户 更 加 容易 理解 和 利用 内 容 库 的 全 媒体 内 容 。 
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1. 全 媒体 内 容 服务 的 新 需求 标签 提取 ， 基 于 内 容 标签 进行 内 容 的 深度 分 析 、 计 算 ， 


全 媒体 内 容 库 是 融合 媒体 平台 的 重要 组 成 部 分 ， 通 
过 全 媒体 内 容 库 可 实现 跨 媒体 的 内 容 资源 管理 ， 整 合 全 
台 在 线 全 媒体 内 容 资 源 。 通 过 构建 全 媒体 内 容 库 ， 还 可 
以 实现 全 台 内 容 的 统一 检索 、 统 一 共享 和 快速 调用 ， 真 
正 激活 台 内 现 有 的 媒 资 及 各 种 业务 系统 内 的 媒体 内 容 资 
源 ， 为 全 媒体 融合 生产 、 全 媒体 指挥 策划 和 内 容 运营 提 
供 内 容 支 撑 。 当 前 ， 广 电 融 合 媒体 平台 建设 如 火 如 茶 ， 
在 新 的 技术 平台 和 业务 架构 下 ， 媒 体内 容 管理 的 对 象 、 
流程 ， 以 及 提供 内 容 服 务 的 方式 也 随 之 变化 。 
用 户 需 要 提供 更 加 丰富 的 内 容 发 现 手 段 ， 不 仅仅 是 
分 类 查找 、 全 文 搜索 。 在 用 户 有 明确 目的 查找 内 容 的 时 候 ， 
要 能 使 用 户 随时 随地 通过 各 种 搜索 手段 获得 准确 的 内 容 。 
在 用 户 没有 明确 目标 的 时 候 ， 达 到 “ 想 你 所 想 ”的 内 容 
响应 ， 在 服务 形式 上 化 被 动 为 主动 ， 将 内 容 与 用 户 需求 
相 结合 ， 为 用 户 提 供 精 准 、 贴 合 的 内 容 分 析 服 务 。 

原 有 内 容 再 造 , 是 传统 媒体 在 内 容 上 的 核心 竞争 力 ， 
中 全 媒体 内 容 库 需 要 为 用 户 提供 更 多 的 内 容 可 视 化 分 析 
工具 ， 让 用 户 通过 内 容 可 视 化 工具 ， 更 多 维度 的 去 理解 
内 容 库 中 的 内 容 ,让 内 容 的 分 析 、 内 容 挖 据 更 加 简单 、 
易 用 、 直 观 ， 让 用 户 进 行 交互 式 、 可 视 化 的 内 容 探索 。 
2. 内 容 可 视 化 技术 研究 与 应 用 

全 媒体 内 容 库 以 大 数据 、 人 工 智 能 等 先进 技术 为 文 
撑 ， 进 行 媒 体内 容 服 务 的 创新 ， 通 过 对 全 媒体 内 容 进行 


实现 对 内 容 库 媒 体内 容 的 挖掘 ,包括 索引 、 关 键 词 提 取 、 
自动 摘要 、 分 类 、 聚 类 、 人 情感 分 析 、 关 联 计 算 等 ， 对 得 
到 的 分 析 计 算 结 果 进 行 解释 和 表示 。 最 终 ， 通 过 内 容 可 
视 化 的 方式 为 用 户 提供 更 友好 、 更 准确 的 内 容 服 务 。 
2. 1 全 媒体 内 容 的 特征 提取 及 计算 

全 媒体 内 容 库 中 的 内 容 种 类 包括 文本 、 图 片 、 音 频 、 
视 音频 等 , 全 媒体 内 容 包 含 多 种 维度 的 描述 内 容 的 特征 ， 
对 于 这 些 特 征 的 提取 , 是 分 析 、 挖 掘 全 媒体 内 容 的 基础 。 
2.1.1 文本 特征 提取 

全 媒体 内 容 库 通 过 自然 语言 处 理 技术 ， 实 现 对 文本 
内 容 的 分 析 ， 包 括 词性 分 析 、 关 键 词 提 取 、 自 动 摘要 、 
情感 分 析 等 ， 从 而 提取 文本 的 相关 特征 。 
2.1.2 图 像 特征 提取 

通过 人 工 智 能 图 像 技 术 , 将 内 容 库 中 的 图 像 内 容 自 
动 生成 相应 的 文字 描述 , 描述 的 特征 范围 涵盖 场景 描述 、 
物体 分 类 、 人 物 、 地 标 、 热 词 等 ， 可 以 提取 对 不 同 维度 、 
不 同 层次 的 图 片 内 的 语义 特征 信息 。 中 抽取 相关 的 特征 
向 量 后 , 形成 代表 该 图 像 的 多 维特 征 向 量 , 通过 向 量 计算 ， 
在 特征 向 量 空间 中 比较 、 分 析 各 图 像 特征 向 量 之 间 的 距 
离 或 相似 关系 ， 完 成 对 图 像 内 容 相 关 分 析 计 算 ， 从 而 让 
系统 获得 高 层次 的 对 图 像 的 理解 。 
2.1.3 视频 特征 提取 

通过 人 工 智 能 的 视频 处 理 技术 ， 对 内 容 库 中 的 视频 
进行 智能 分 析 , 分 析 的 视频 内 容 包 括 视频 内 的 语音 文字、 
人 脸 、 物 体 、 场 景 等 多 种 维度 内 容 ， 提 取 描 述 视 频 内 容 
的 特征 信息 。 特 征 内 容 包 括 视频 的 分 类 、 人 物 、 语 音 识 
别 文字 、 物 体 、 字 幕 、 标 题 、 弹 幕 文字 内 容 等 。 
2.1.4 音频 特征 提取 

通过 人 工 智 能 技术 ， 对 内 容 库 中 的 音频 进行 智能 分 
析 。 音 频 挖掘 通常 有 两 种 方式 : 将 音频 中 的 语音 识别 成 
文字 ， 再 对 文字 信息 进行 特征 提取 ; 从 音频 中 提取 音乐 
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特征 ， 例 如 音调 、 旋 律 ， 以 及 说 话 人 的 声 纹 特征 ， 提 取 
人 物 等 。 通 过 分 析 获 得 的 音频 特征 ， 进 行 音频 内 容 的 相 
关内 容 分 析 计 算 。 
2. 2 基于 标签 的 内 容 分 析 

所 谓 标签 ， 既 上 述 媒 体内 容 的 特征 ， 通 过 一 些 标签 
描述 、 代 表 某 一 内 容 ， 这 个 内 容 可 以 是 全 媒体 内 容 库 
的 任何 内 容 ,包括 互联 网 汇聚 、 通 联 稿件 、 报 题 、 选 题 、 
报道 等 。 对 比 传统 “分 类 ”的 概念 ， 一 个 内 容 往往 只 属 
于 几 个 固定 的 分 类 ， 但 可 以 拥有 许多 个 不 同 维度 的 内 容 
描述 标签 。 同 时 ，“ 分 类 ”的 定义 相对 固定 ， 数 量 有 限 ， 
而 标签 则 是 数量 无 上 限 扩展 ， 自 由 添加 ， 并 且 标签 具有 
时 效 性 。 全 媒体 内 容 库 中 的 内 容 大 爆炸 给 标签 带 来 了 用 
武之 地 ， 通 过 内 容 标签 可 以 对 全 媒体 内 容 库 中 的 海量 内 
容 进 行 多 维度 的 管理 。 

通过 标签 进行 内 容 分 析 , 让 系统 .用户 可 以 更 多 维度 、 
更 深 地 理解 内 容 ， 抽 取 全 媒体 内 容 的 具有 表意 性 、 显 著 
性 的 特征 、 特 点 ， 形 成 描述 该 全 媒体 内 容 的 标签 。 

可 以 解决 使 用 者 对 海量 全 媒体 内 容 的 “发 现 ” 的 需求 。 
内 容 库 中 ， 海 量 的 全 媒体 内 容 ， 使 用 者 要 想 快 速 、 方 便 
的 找到 自己 需要 的 内 容 ， 通 过 内 容 标 签 是 最 方便 、 可 靠 
地 方式 。 对 于 全 媒体 内 容 库 的 使 用 者 ， 标 签 能 够 有 效 地 
进行 内 容 整理 、 组 织 和 管理 。 

标签 有 助 于 用 户 挖掘 全 媒体 内 容 库 中 的 内 容 价 值 ， 
通过 人 工 智能 技术 挖掘 得 到 不 同 维度 的 内 容 标签 ， 使 用 
户 进 行 探 索 式 内 容 挖掘 成 为 可 能 ， 用 户 可 以 从 不 同 角度 
通过 可 视 化 的 方式 ， 观 察 内 容 库 中 的 内 容 ， 发 掘 更 深度 
的 内 容 价值 。 
2. 3 多 种 媒体 内 容 的 可 视 化 应 用 

对 于 全 媒体 内 容 库 中 的 内 容 可 视 化 ， 处 理 的 数据 类 
型 涵盖 文本 、 多 维 、 视 音频 、 时 空 数据 等 ， 采 用 的 显示 
方法 包括 标准 的 2D/3D 图 表 显 示 、 图 像 化 显示 、 列 表 显 示 、 
地 图 显示 等 。 

多 维 数据 可 视 化 分 析 的 目标 是 发 现 多 维 数据 分 布 规 

律 ， 寻 求 不 同 维度 之 间 的 逻辑 关系 ,通常 采 用 的 显示 方 
法 包括 曲线 图 、 折 线 图 、 散 点 图 、 饼 图 、 柱 状 图 、 雷 达 图 、 
热力 图 等 图 表 显 示 方 法 。 

文本 内 容 的 可 视 化 ， 常 用 的 可 视 化 技术 是 标签 云 , 品 
它 直接 抽取 文本 中 的 关键 词 并 将 其 按照 一 定 的 顺序 和 规律 
整齐 美观 地 呈现 在 屏幕 上 。 关 键 词 在 文本 中 有 分 布 的 差异 ， 
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(1 ) 内 容 分 布 分 析 工 具 , 通过 内 容 的 属性 、 标 签 等 ， 
用 户 可 以 通过 工具 自助 地 进行 内 容 分 析 、 统 计 ， 提 供 多 
种 可 视 化 组 件 ， 使 用 户 以 最 直观 的 方式 了 解 内 容 库 中 的 
内 容 。 

(2 ) 热点 内 容 挖 气 工 具 ， 通 过 可 视 化 工具 可 以 直观 
地 发 现 当 前 热点 ， 再 通过 热点 进行 下 销 ， 分 析 、 挖 掘 与 
热点 相关 的 内 容 。 可 以 通过 选择 不 同 领域 ， 包 括 时 政 、 
经 济 、 体 育 、 民 生 、 影 视 等 ,更 加 专注 地 挖掘 热点 内 容 。 
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(3 ) 主 通过 对 海量 内 容 的 智能 挖掘 关联 ， 自 动 聚 合 
生成 事件 专题 、 人 物 专题 、 自 定义 专题 等 。 通 过 可 视 化 
te 帮助 用 户 挖掘 潜在 的 内 

， 为 选 题 决策 、 内 容 生 产 提 供 智 能 支持 。 

(4) 词 云 分 析 工 具 ， 以 所 选 范围 内 的 内 容 相关 的 标 
签 数据 为 分 析 基 础 , 以 词 云 的 方式 对 标签 数据 进行 展示 ， 
0 in 
词 、 评 论 关键 词 等 。 

(5 ) 情感 分 析 工 具 ， 通 过 对 评论 、 粤 情 内 容 的 智能 
分 析 , 利用 先进 的 深度 学 习 技 术 , 实现 内 容 的 精准 挖掘 ， 
针对 媒体 领域 特点 进行 情感 正 负面 判断 ， 提 取 与 用 户 相 
关 的 高 价值 信息 。 靖 
3. 全 媒体 内 容 库 构建 的 核心 模块 

全 媒体 内 容 库 致力 于 打造 出 大 容量 、 多 种 类 、 可 学 习 、 


有 的 出 现 的 频率 高 ， 有 的 出 现 的 频率 低 ， 有 的 重要 性 高 ， 
有 的 重要 性 低 ， 可 以 利用 字体 的 大 小 和 颜色 的 醒目 度 反映 
文本 中 各 个 关键 字 的 差异 ， 越 是 重要 、 出 现 频率 高 的 关键 
词 可 以 采用 较 大 、 颜 色 较 醒目 的 字体 。 
2. 4 探索 式 可 视 化 的 内 容 分 析 

可 视 化 的 自助 式 内 容 探索 工具 ， 辅 助 用 户 通过 可 视 
化 的 方式 分 析 、 控 掘 内 容 , 产 出 对 内 容 生 产 有 价值 的 洞察 。 
整个 内 容 挖 气 “可视化 ”的 过 程 ， 用 户 根据 需求 简单 进 
行 拖 搜 式 、 交 互 式 操作 即 可 完成 ， 多 种 展示 形式 ， 秒 级 
响应 。 让 用 户 能 够 以 最 直观 的 方式 发 现 一 些 内 容 背 后 潜 
在 的 相关 性 。 


可 交互 的 智能 化 内 容 管理 引擎 ， 通 过 全 媒体 内 容 服 务 平 
台 ， 可 以 充分 吸收 多 种 渠道 海量 汇聚 的 内 容 ， 经 过 内 容 
整理 后 , 实现 内 容 的 精准 查询 、 关 联检 索 、 可 视 化 分 析 等 。 
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同时 ， 还 可 以 根据 对 自 有 内 容 的 数据 挖掘， 通过 建 模 ， 
自动 形成 主题 事件 库 、 知 识 库 等 面向 业务 的 辅助 决策 、 
辅助 生产 、 辅 助 发 布 的 内 容 池 ,核心 模块 包括 以 下 几 方 面 。 
3.1 内 容 处 理 引擎 

针对 不 同类 型 、 不 同 来 源 的 内 容 ， 处 理 引 擎 对 内 容 
进行 自动 化 处 理 , 进行 结构 化 , 内 容 处 理 引擎 能 力 包 括 : 

内 容 筛 选 ， 通过 分 析 内 容 元 数据 、 文 本 信息 ， 以 及 
系统 配置 信息 ， 设 置 内 容 的 重要 级 别 、 保 密级 别 。 

内 容 过 滤 : 内 容 的 重复 过 滤 、 垃 圾 信息 过 泪 、 广 告 
过 滤 ， 同 时 对 视 音频 素材 也 需要 具有 过 滤 功 能 ， 对 重复 
上 传 的 视 音 频 避 免 重复 人 库 。 

内 容 审核 : 基于 人 敏感 词 及 特征 库 ， 过 滤 检 测 内 容 的 
文本 、 图 片 及 视频 。 自 动 过 滤 汇 聚 素 材 中 的 敏感 内 容 ， 
并 将 包含 敏感 词 的 素材 放 人 待 发布 区 , 由 人 工 二 次 处 理 。 

字幕 检测 与 识别 : 从 视频 中 检测 到 是 否 有 字幕 。 字 
幕 识别 ， 对 有 字幕 的 视频 把 字幕 转换 成 文字 。 


[ 


人 脸 检 测 : 检测 是 否 是 某 个 特定 人 的 脸 ， 检测 是 否 
含有 人 脸 。 

视频 标签 提取 : 识别 视频 中 的 场景 .人物 风景、 建筑 、 
生活 物品 等 ， 支 持 不 同 维度 层次 的 图 像 语义 信息 提取 ， 
丰富 内 容 标签 。 


多 格式 转换 : 可 将 多 种 音 视图 文 素材 转换 为 标准 的 
制作 格式 、 码 率 ， 供 电视 新 闻 生 产 网 或 新 媒体 调用 。 
3. 2 内 容 挖掘 引擎 

通过 人 工 智 能 技术 对 入 库 的 海量 内 容 的 属性 、 文 本 、 
标签 等 进行 内 容 挖 气 ， 包 括 分 类 、 聚 类 、 自 动 关联 、 实 
体 名 提取 、 人 情感 分 析 、 标 签 提取 等 。 

分 类 : 通过 分 析 内 容 元 数据 、 文 本 信息 、 内 容 标签 ， 
以 及 分 类 配置 信息 ， 自 动 将 入 库 内 容 进 行 分 类 。 

聚 类 : 根据 编目 信息 、 自 动 提取 的 标签 信息 ， 支 持 
文件 属性 自动 辨别 分 类 ， 元 数据 分 析 分 类 ， 元 数据 自动 
关联 ， 话 题 内 容 相似 性 聚 类 ， 可 通过 自动 聚 类 技术 自动 
聚焦 一 段 时间 内 网 上 热点 信息 ， 可 自 定 义 需 进 行 自动 聚 
类 运算 的 素材 来 源 和 类 别 。 

自动 关联 : 新 闻 稿 件 相 关内 容 自动 关联 ， 自 动 关联 
相关 、 相 似 的 多 媒体 素材 ， 形 成 新 闻 素材 集合 ， 便 于 纺 
辑 制作 人 员 有 针对 性 地 挑选 采用 ， 可 自 定 义 需 进行 自动 
关联 的 来 源 ， 可 灵活 配置 自动 关联 分 析 灵 敏 度 。 

实体 名 提取 ， 对 内 容 进行 领域 内 的 实体 名 提取 ， 包 
括 栏目 名 、 节 目 名 、 主 演 、 主 持 、 导 演 等 领域 内 实体 名 ; 

情感 分 析 ， 针 对 舆情、 评论 ， 进 行情 感 分 析 。 

标签 提取 : 通过 分 析 内 容 的 元 数据 及 文本 信息 ， 自 


ChinaXiv 合 作 期 刊 


技术 与 应 用 .研究 81 本 时 时 六 


动 提取 内 容 的 关键 词 ， 形 成 内 容 的 标签 。 
3.3 可 视 化 泻 染 引擎 

通过 灵活 使 用 HTML5 技术 ， 适 配 不 同 的 展现 模式 ， 
同时 运用 CSS3 的 动画 特性 ， 结 合 媒体 内 容 的 自身 特点 ， 
以 更 生动 、 更 友好 的 形式 ， 实 时 呈现 隐藏 在 庞杂 媒体 内 
容 背 后 的 规律 、 联 系 。 
总 结 

以 全 媒体 内 容 为 基础 的 媒体 融合 业务 ， 对 内 容 保 存 
和 使 用 需求 不 再 只 是 以 素材 和 节目 为 核心 ， 也 不 再 以 人 
工 编 目 和 结构 化 的 数据 保存 为 主要 手段 ， 而 是 扩展 到 面 
向 全 媒体 业务 ， 涵 盖 素 材 、 节 目 、 电 视 稿件 、 两 微 内 容 、 
H5 页 面 等 多 种 内 容 形态 ， 同 时 ， 对 内 容 的 编目 也 以 自动 
化 的 数据 提取 、 智 能 编目 、 非 结构 化 的 原始 数据 保存 为 
主要 手段 ， 重 视 对 原始 内 容 数据 的 持续 挖掘。5 
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以 大 数据 、 人 工 智 能 技术 为 基础 ， 重 新 梳理 媒体 内 
容 服务 的 各 个 环节 。 基 于 标签 的 内 容 分 析 挖 据 ， 充 分 发 
挥 内 容 的 最 大 价值 ， 最终 实现 全 台 内 容 包括 媒 资 、 制 作 ， 
以 及 电视 媒体 、 广 播 媒体 、 新 媒体 等 多 种 业务 体系 内 容 
的 统一 检索 和 使 用 ， 实 现 为 融合 媒体 各 种 业务 的 内 容 文 
撑 。 辆 
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